我们提出了一种新颖的计算模型“ Savir-T”,用于在Raven的渐进式矩阵(RPM)中体现的视觉推理问题。我们的模型考虑了拼图中每个图像中视觉元素的显式空间语义,编码为时空视标,并了解内部图像以及图像的依赖依赖性依赖性,与视觉推理任务高度相关。通过基于变压器的SAVIR-T体系结构建模的令牌关系,提取组(行或列)通过利用组规则相干性并将其用作电感偏置来提取前两行中的基本规则表示形式,从而引起了提取组(行或列)驱动的表示形式(或列)RPM中的每个令牌。我们使用此关系表示形式来找到正确的选择图像,该图像完成了RPM的最后一行或列。在两个合成RPM基准测试中进行了广泛的实验,包括Raven,I-Raven,Raven-Fair和PGM以及基于自然图像的“ V-Prom”,这表明Savir-T为视觉设定了新的最新时间推理,超过了先前模型的性能。
translated by 谷歌翻译
解决视觉推理测试的计算学习方法,例如Raven的渐进式矩阵(RPM),非常取决于识别测试中使用的视觉概念(即表示)以及基于这些概念(即,推理)。然而,学习表示和推理是一项具有挑战性且不足的任务,经常以舞台的方式(首先表示,然后推理)接近。在这项工作中,我们提出了一个端到端的联合代表性学习框架,该框架利用了弱的归纳偏见形式来共同改善这两项任务。具体而言,我们引入了RPMS,GM-RPM的一般生成图形模型,并将其应用于解决推理测试。我们使用基于GM-RPM原理的基于基于的抽象推理网络(DAREN)的新型学习框架来完成此操作。我们对Daren进行了多个基准数据集的经验评估。 Daren在推理和分离任务上都表现出对最先进的模型(SOTA)模型的一致改进。这证明了分离的潜在表示与解决抽象视觉推理任务的能力之间的密切相关性。
translated by 谷歌翻译